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话题 检测 与 跟踪 研究 进展 综述 
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摘要 : 随 着 互联 网 信息 的 指数 增长 ， 为 了 提高 信息 挖掘 的 效率 ， 信 息 检 索 与 话题 检测 等 技术 
近年 得 到 了 广泛 关注 。 本 文 首先 回顾 了 话题 检测 与 跟踪 技术 发 展 的 历史 , 并 在 介绍 传统 话题 检测 方法 的 
基础 上 ， 从 突 发 性 检测 与 基于 社会 网 络 的 话题 检测 与 跟踪 方法 两 个 方面 进行 深入 探讨 ， 对 话题 检测 与 跟踪 
的 评价 方法 进行 了 分 析 ; 最 后 展望 了 话题 检测 与 跟踪 方法 的 发 展 趋势 。 
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~ 贰 乏 并 存 的 矛盾 日 益 凸 显 。 浩 瀚 的 网 络 数据 远 远 超 出 了 人 们 的 掌控 能 力 ， 因 此 ， 如 何 有 效 地 
09 组 织 并 展现 Web 数据 ， 提 高 知识 获取 的 效率 ， 长 期 以 来 一 直 是 一 个 热点 研究 问题 。 借 助 于 
9 话题 检测 与 跟踪 技术 可 以 把 信息 按 主 题 分 类 组 织 , 将 特定 时 间 段 内 最 活跃 的 话题 智能 地 推送 
©O 给 用 户 , 并 按照 用 户 的 需求 跟踪 话题 的 动态 演化 过 程 ， 从 而 为 用 户 有 效 掌 握 社 会 动向 和 重大 
© 事件 提供 极 大 便利 。 尤 其 是 面向 热点 话题 与 突 发 话题 的 相关 应 用 更 得 到 了 广泛 的 关注 。 


Oo 同时 ， 随 着 Web 2.0 的 应 用 与 发 展 ， 社 会 网 络 变 得 越 来 越 普及 。 与 以 往 的 新 闻 网 络 媒介 
as 不 同 , 社会 网 络 更 加 强调 用 户 的 参与 性 如果 能 够 有 效 地 在 社会 网 络 上 自动 检测 和 跟踪 话题 ， 
无 颖 能 够 方便 用 户 在 社会 网 络 上 寻找 并 全 面 了 解 其 所 感 兴趣 的 事件 或 者 话题 。 然 而 由 于 社会 
网 络 上 的 数据 主要 由 普通 用 户 产生 , 这 些 数据 无 论 是 用 词 、 形 式 还 是 具体 内 容 的 质量 都 参差 
不 齐 ， 给 话题 检索 带 来 很 大 困难 。 值 得 注意 的 另 一 方面 是 , 用 户 的 广泛 参与 ， 为 话题 检测 和 
跟踪 提供 了 可 利用 的 新 的 数据 信息 。 社 会 网 络 上 的 话题 检测 的 数据 不 仅 局 限 文本 信息 , 还 可 
© 以 利用 非 文本 信息 。 这 些 新 特点 使 面向 社会 网 络 的 话题 检测 和 跟踪 方法 的 研究 在 最 近 几 年 得 
一 到 了 重点 关注 。 


在 本 文中 , 我 们 首先 回顾 了 话题 检测 与 跟踪 的 历史 ; 在 介绍 传统 话题 检测 方法 的 基础 上 ， 
结合 我 们 的 研究 成 果 从 突 发 性 检测 与 基于 社会 网 络 的 话题 检测 与 跟踪 方法 两 个 方面 进行 深 
入 探讨 ; 对 目前 的 话题 检测 与 跟踪 的 评价 方法 进行 了 分 析 ; 最 后 对 话题 检测 与 跟踪 方法 未 来 
的 发 展 趋 势 进行 了 展望 。 


2 ”研究 现状 


话题 检测 和 跟踪 研究 已 经 开展 十 多 年 了 。 在 现 有 的 研究 中 ,话题 被 定义 为 菏 个 事件 或 活 
动 及 所 有 与 其 相关 的 事件 或 活动 , 而 事件 则 定义 为 在 某 个 特定 的 时 间或 地 点 发 生 的 某 件 独特 
的 事情 四。 在 以 往 的 研究 中 ， 事 件 和 话题 的 定义 差别 微小 并 且 经 常 可 以 互 换 。 话 题 的 检测 可 
以 分 为 两 个 相对 独立 的 子 任务 ， 即 历史 话题 检测 (或 回顾 式 话题 检测 ) 和 在 线 话题 检测 。 历 
史话 题 检测 是 指 在 已 知 所 有 的 检测 数据 后 , 在 该 数据 集 上 检测 其 中 隐 含 的 所 有 话题 。 在 线 话 
题 检 测 是 指 在 进行 话题 检测 的 时 候 , 检测 数据 只 是 部 分 可 知 , 并 且 新 的 数据 是 以 在 线 的 形式 
不 断 地 呈现 给 检测 系统 ， 要 求 话 题 检 测 系统 能 够 即时 地 对 当前 新 到 达 文 本 进行 话题 的 判断 ， 
即 判断 当前 新 文档 是 新 的 话题 还 是 属于 某 个 已 有 的 历史 话题 。 话 题 的 跟踪 任务 是 指 对 于 一 个 
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事先 指定 的 话题 〈 按 照 某 种 形式 呈现 )， 在 在 线 数据 输出 模式 中 ， 在 新 数据 到 达 之 前 判别 当 
前 文档 是 否 属 于 该 指定 的 话题 。 


在 话题 检测 与 跟踪 (Topic Detect and Tracking, TODT) 评测 中 ， 用 于 进行 话题 检测 和 跟踪 
的 语 料 为 新 闻 数 据 ， 这 些 数据 包括 新 闻 文 本 和 转录 语 料 ， 通常 按照 时 间 有 序 排列 ， 并 且 目 标 
事件 已 经 被 人 工 标注 。 在 评测 中 , 话题 检测 和 跟踪 研究 “> 型 被 进一步 划分 为 三 个 子 任务 : 
数据 流 的 切 分 、 事 件 的 检测 、 事 件 的 跟踪 。 数 据 流 的 切 分 任务 被 定义 为 对 连续 的 文本 数据 流 
按照 报道 内 容 进 行 切 分 , 正确 识别 出 与 相 邻 报道 的 边界 。 事件 的 检测 可 以 进一步 被 划分 为 历 
史 事 件 检 测 (Retrospective Event Detection, RED) 和 在 线 新 事件 检测 (Online New Event 
Detection, NED) 外。 历史 事件 检测 是 指 在 一 个 给 定 的 报道 集合 中 找 出 所 有 隐 含 的 事件 ， 划 
任务 就 是 对 目标 数据 集 进行 聚 类 , 每 一 个 聚 类 结果 簇 表 示 一 个 事件 。 而 在 线 新 事件 检测 的 目 
标 是 以 在 线 的 方式 在 报道 流 中 识别 新 事件 。 当 有 新 报道 到 达 时 ,要 求 在 线 新 事件 检测 方法 能 
够 对 该 报道 进行 分 析 并 且 在 下 一 个 报道 到 达 之 前 判断 该 报道 是 否 讨论 了 一 个 新 的 事件 ,而 事 
件 的 跟踪 是 指 在 新 到 达 的 报道 中 找 出 所 有 与 已 知事 件 相 关 的 报道 。 


于 我 们 的 研究 主要 集中 在 话题 的 检测 和 跟踪 上 ， 所 以 下 面 我 们 将 主要 分 析 已 有 的 事件 
检测 和 跟踪 方法 的 研究 而 忽略 数据 流 的 切 分 研究 。 关 于 话题 检测 和 跟踪 的 研究 可 以 从 方法 上 
划分 为 两 类 。 第 一 类 方法 主要 是 寻找 适合 于 话题 检测 和 跟踪 的 新 的 聚 类 算法 或 者 对 已 有 的 聚 
类 算法 进行 改造 。 另 一 类 方法 则 集中 于 挖掘 新 的 话题 特征 来 提高 检测 和 跟踪 的 效果 。 值 得 注 
意 的 是 ， 在 有 些 研 究 中 ， 比 如 引文 [1] 等 ， 这 种 划分 有 时 候 并 不 明显 。 为 了 简便 起 见 ， 我 们 
不 再 一 一 进行 严格 的 说 明 。 


3 ”主要 方法 


话题 检测 与 跟踪 系统 的 主要 工作 是 准确 地 检测 话题 并 跟踪 话题 的 动态 演化 过 程 ， 其 中 最 


关键 的 问题 是 如 何 进行 话题 的 检测 。 艾 伦 (James Allan〉 等 人 四 将 话题 检测 分 为 两 个 分 支 : 

一 个 是 回顾 式 话题 检测 ， 即 对 语料库 中 的 文档 以 话题 为 单位 进行 再 组 织 ,本质 上 是 一 个 无 指 

导 的 分 类 问题 ,把 讨论 同一 个 话题 的 文档 划分 到 一 起 ; 男 一 个 是 在 线 新 事件 话题 检测 ， 指 下 
= 对 增 量 式 到 来 的 在 线 文档 流 , 顺 次 处 理 , 同时 决定 它 是 属于 某 个 已 经 标注 的 话题 还 是 讨论 了 
一 一 个 新 的 话题 。 在 线 话 题 挖 握 与 回顾 式 话 题 挖 据 的 主要 区 别 在 于 : 在 线 话 题 挖 掘 面 对 的 是 增 
© 量 式 的 文档 流 ， 而 回顾 式 话 题 挖 掘 面 对 的 是 整个 文档 语料库 。 

3.1 话题 表示 及 相似 度 度量 


所 谓 “ 表 示 ” 就 是 指 将 文档 和 话题 抽象 成 计算 机 可 计算 、 可 比较 的 模型 。 相 似 度 度 量 包 
括 计 算 文 档 与 文档 之 间 、 文 档 与 话题 之 间 以 及 话题 与 话题 之 间 的 相似 性 。 这 两 个 问题 是 高 度 
相关 的 ， 每 个 表示 模型 对 应 了 一 种 或 多 种 相似 度 计 算 方 式 。 

常用 的 话题 表示 模型 主要 是 向 量 空间 模型 、 概 率 检索 模型 和 语言 模型 。 

向 量 空 间 模 型 (Vector Space Model, VSM): 该 模型 将 文档 和 话题 都 表示 成 一 个 向 量 ， 
向 量 的 每 一 维 表 示 一 个 词 。 这 样 整 个 词典 构成 了 空间 中 的 所 有 维 , 每 个 文档 和 话题 变 成 了 空 
间 中 的 一 个 向量 (点) 。 


与 向 量 空 间 模型 对 应 的 一 种 最 自然 的 相似 度 度量 方 法 就 是 计算 向 量 的 余弦 。 即 


sim(d,,d ,) = cos(d;,d,) (1) 
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概率 检索 模型 (Probability Retrieval Model): 该 模型 也 将 文档 和 话题 表示 成 一 个 词 集 ， 

将 相似 度 看 作 一 个 概率 值 ， 即 给 出 一 个 查询 (Query) ， 文 档 (Document) 与 该 查询 相关 的 
概率 。 与 概率 模型 对 应 的 一 种 常用 的 相似 度 度量 方法 是 BM25 公式 : 


f (qi,D)x(k, +D 


sim(D,Q) = Y IDF (q,)x 


L D| 
il „D)+k (1-b+b DE 
f (q; ) 1( x agai’ (2) 
IDF (q,)= log ha 0-8 
n(q;)+0.5 


其 中 ，k, ，b 为 自由 参数 ，9q; 是 组 成 查询 MAA, f (q,,D) ERN q EX D H 
的 词 频 ，|D| 表 示 文 档 D 的 长 度 ，avgdl 表示 语料库 中 文档 的 平均 长 度 。 


语言 模型 e Model): 统计 语言 模型 认为 语言 就 是 字母 表 上 的 oe ú 
征集 合 忆 |i = ,中 在 某 个 文档 万 中 形成 一 个 分 布 ， 这 个 概率 分 布 称 为 一 个 语言 模型 。 
个 语言 模型 ， 整 个 语 料 集 也 是 一 个 语言 模型 。 在 语言 模型 中 ， 计 算 
查询 与 文档 的 相关 性 定义 为 从 一 个 语言 模型 生成 另 一 个 语言 模型 的 概率 P(Q,D) 。 常 用 的 
是 库 尔 贝克 - 莱 布 勒 (Kullback-Leiblen) 距离 ， 其 计算 公式 为 : 


w at 


KU Q, D) = Fuco alw) log pa) (3) 
由 于 语言 模型 的 稀疏 性 ,有 可 能 出 现 零 概率 词 , 因此 必须 解决 对 零 概率 词 平滑 性 的 问题 。 


3.2 话题 检测 方法 


关于 话题 检测 和 跟踪 的 研究 方法 可 以 分 为 两 类 : 第 一 类 则 在 寻找 适合 于 话题 检测 和 跟踪 
的 新 的 聚 类 算法 或 者 对 已 有 的 聚 类 算法 进行 改造 ; 第 二 类 则 集中 于 挖掘 新 的 话题 特征 来 提高 
检测 和 跟踪 的 效果 。 本 他， 我们 将 从 这 两 种 类 别 来 简 述 已 有 的 话题 检测 和 跟踪 方法 。 


3.2.1 改进 聚 类 算法 


从 话题 检测 的 定义 来 看 ， 话 题 检 测 和 跟踪 跟 聚 类 算法 的 研究 具有 较 大 的 相似 性 。 因 此 ， 
人 们 便 试图 寻找 更 加 适合 于 话题 检测 和 跟踪 的 聚 类 算法 。 


杨 一 民 等 人 在 1998 年 提出 了 一 个 基于 平均 分 组 的 层次 聚 类 〈Group Average Clustering, 
GAC) 的 历史 事件 检测 方法 中 。 GAC 是 一 个 凝聚 式 的 聚 类 算法 , 它 的 目标 是 使 结果 艇 中 文本 
对 的 平均 相似 度 最 大 化 。 杨 一 民 等 人 在 GAC 的 基础 上 ， 提 出 了 切 分 和 重 聚 类 的 方法 。 该 方 
法 通过 对 数据 的 切 分 充分 利用 了 事件 聚集 性 特征 , 即 同一 事件 的 报道 倾向 于 聚集 在 一 个 相对 
较 小 的 时 间 区 域 ， 并 且 在 重 聚 类 的 时 候 能 够 将 初始 分 块 边界 对 聚 类 结果 的 影响 降 到 最 低 。 


艾 伦 等 人 在 基于 K- 平 均值 CK-Means) 聚 类 算法 的 基础 上 提出 了 多 重 K- 平 均值 方法 来 进 
行 历史 事件 的 检测 外 。 多 重 K- 平 均值 的 基本 思想 为 ， 在 每 个 给 定 的 时 间 点 ， 已 知 有 k 个 簇 ， 
对 于 每 个 报道 , 找到 与 其 最 近 的 了 饼 。 如果 该 距离 小 于 某 个 闵 值 , 那么 将 该 报道 划分 到 该 簇 中 ; 
WAR TATE AT ATS BU, 则 由 该 文档 生成 一 个 新 的 艇 , 在 此 基础 之 上 再 进行 常规 的 K- 平 均 
值 聚 类 算法 。 

另外， 李 志 伟 等 人 (音译 ， Li et al. ) 在 2005 年 提出 了 基于 概率 模型 的 历史 新 闻 事 件 检 
测 方法 中。 该 方法 使 用 概率 生成 模型 结合 内 容 和 时 间 信息 进行 历史 事件 检测 。 对 于 每 个 已 知 
的 事件 用 一 个 概率 生成 模型 来 表示 。 对 于 每 一 个 文档 , 找到 生成 该 文档 的 概率 最 大 的 那个 生 
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成 模型 所 代表 的 事件 ， 则 该 文档 即 属 于 该 事件 。 同 时 ， 该 方法 还 考虑 到 对 同一 个 事件 的 报道 
往往 会 分 布 在 多 个 新 闻 源 上 。 所 以 , 在 该 方法 中 ， 结 合 了 不 同 数据 源 在 相同 时 间 报 道 的 共有 
较为 相似 的 事件 来 帮助 进行 事件 的 检测 。 


引文 [23] 提 出 了 一 种 基于 多 策略 优化 的 分 治 聚 类 算法 。 该 算法 能 够 首先 将 全 部 的 数据 分 
为 具有 一 定 的 相似 性 的 分 组 , 然后 对 各 个 分 组 分 别 进行 聚 类 , 得 到 每 个 分 组 内 部 的 聚 类 结果 ， 
即 “ 微 类 ”。 在 此 基础 上 ， 再 对 所 有 的 微 类 进行 聚 类 ， 得 到 最 终 的 结果 话题 。 同 时 ， 在 聚 类 
的 过 程 中 ， 该 方法 采用 了 多 种 策略 的 优化 方式 来 改善 聚 类 的 效果 。 


需要 说 明 的 是 ,虽然 上 面 介绍 的 方法 在 初始 引入 的 时 候 上 只 是 针对 历史 事件 检测 或 者 只 是 
针对 在 线 话题 检测 ,但 是 , 由 于 历史 事件 检测 本 身 在 茶 种 程度 上 能 够 分 解 为 在 线 话 题 的 检测 ， 
所 以 , 上 面 介 绍 的 在 线 话 题 检 测 的 方法 大 都 可 以 运用 于 历史 事件 的 检测 任务 。 下 一 节 的 介绍 
中 ， 我 们 将 不 再 区 分 所 介绍 的 方法 所 具体 针对 的 检测 任务 。 


3.2.2 挖掘 话题 特征 


另外 一 种 研究 思路 是 挖掘 话题 所 固有 的 特征 来 改进 话题 检测 和 跟踪 的 效果 。 话 题 特征 
包括 话题 的 时 间 聚 集 性 、 话 题 的 特征 词 、 话 题 的 生命 演变 特征 以 及 话题 的 命名 实体 等 。 
前 较 广 泛 采 用 的 一 种 思路 是 利用 话题 的 各 种 特征 来 寻找 合适 的 途径 控制 话题 检测 和 
跟踪 时 的 话题 闵 值 , 则 在 寻找 能 够 兼容 相对 较为 广泛 的 闵 值 设 定 方 法 。 该 方面 的 研究 包括 了 
艾 伦 等 人 在 引文 [和 中 提出 的 时 间 惩 罚 策略 、 周 子 狂 等 人 在 引文 [6] 中 提出 的 增 量 式 概率 浅 层 
语义 索引 (Probabilistic Latent Semantic Indexing，PLSD 在 线 事件 检测 算法 、 陈 致 杰 等 人 在 引 
文 [7] 中 提出 的 基于 隐 马 尔 科 夫 模型 的 事件 生命 特征 识别 方法 。 

艾 伦 等 人 主要 是 使 用 单 遍 法 (Single Pass) 聚 类 算法 和 一 个 新 的 闵 值 控制 模型 来 进行 在 
线 新 事件 的 检测 。 该 闵 值 控制 策略 的 基本 思想 是 : 相距 较 远 的 两 个 报道 必须 具有 较 大 的 相似 
性 才能 将 其 划分 为 同一 个 事件 , 而 相距 较 近 的 两 个 文档 则 需要 较 小 的 相似 性 将 其 归 为 同一 个 
事件 .周子 狂 等 人 实现 的 增 量 式 概 率 浅 层 语义 索引 模型 主要 目的 是 扩大 检测 阔 值 设 定 的 有 效 
范围 。 相 对 于 基于 问 量 空间 模型 的 文本 和 话题 表示 模型 , 概率 浅 层 语义 索引 由 于 能 够 更 加 有 
效 地 表示 话题 , 因此 可 以 容纳 更 为 宽广 的 阐 值 范围 。 陈 致 杰 等 人 的 生命 特征 识别 方法 认为 事 
件 的 发 展 具 有 一 定 的 特定 模式 ， 即 产生 、 发 展 、 壮 大 和 消亡， 因此 可 以 通过 隐 马 尔 科 夫 模型 
训练 已 知 的 若干 种 具有 不 同 生命 特征 的 事件 演变 方式 , 然后 再 对 每 个 新 事件 的 行为 模式 进行 
预测 。 通过 对 不 同 的 事件 演变 阶段 赋 以 不 同 的 检测 闵 值 ， 即 通过 动态 话题 闵 值 策略 来 改进 已 
有 话题 检测 方法 的 检测 效果 。 引 文 [3] 在 2004 年 提出 了 一 种 将 文本 中 的 特征 词 进行 分 类 的 方 
法 ， 即 将 关键 词 分 为 地 点 、 名 字 、 时 间 和 一 般 特征 词 等 ,然后 在 各 自 的 类 别 上 进行 文本 内 容 
的 比较 。 引 文 [8] 在 2004 年 提出 了 通过 文本 分 类 和 命名 实体 来 改进 新 事件 检测 的 效果 。 该 论 
文通 过 对 文本 进行 分 类 ,对 不 同类 别 给 予 不 同 的 相似 性 闵 值 , 通过 文本 的 多 重 表 示 方 法 ， 即 
将 一 个 文本 表示 为 三 个 部 分 : 由 所 有 的 特征 词 构成 的 表示 、 由 命名 实体 构成 的 表示 、 由 非 命 
名 实体 构成 的 表示 ， 改 进 文 本 内 容 相似 性 计算 的 效果 。 


在 中 文 研究 领域 ， 引 文 [21] 首 先 对 文本 特征 进行 分 类 ， 将 所 有 的 词 特征 分 为 人 名 、 地 名 
和 主题 信息 等 ， 并 对 于 每 种 类 别 赋予 不 同 的 相似 性 比较 系数 。 在 此 基础 上 ,将 每 个 特征 词 的 
权重 定义 为 该 特征 词 的 词 频 与 其 所 属 类 别 的 相似 性 比较 系数 的 乘积 ,该 方法 通过 给 予 不 同类 
别 的 特征 词 以 不 同 的 权重 计算 系数 ,可 以 加 强 特定 类 别 在 文本 相似 度 计算 中 的 权重 ， 从 而 提 
升 话题 检测 的 精度 。 此 外 ， 引 文 [22] 提 出 了 一 种 通过 构建 地 理 树 的 方法 来 计算 命名 实体 的 相 
似 性 。 由 于 在 地 名 的 表述 中 , 不 同 的 地 名 可 能 共享 某 种 程度 的 相似 性 ,因此 引入 预先 设 定 的 
地 理 树 能 够 较为 有 效 地 解决 不 同 地 名 之 间 共 享 相似 度 的 问题 。 但 是 , 该 方法 仅 局 限于 地 名 的 
比较 ， 对 于 其 他 词性 ， 其 应 用 局 限 性 较 大 。 
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3.3 突 发 事件 检测 


近 些 年 ， 突 发 事件 的 研究 越 来 越 引 起 人 们 的 注意 。 突 发 特征 是 指 伴随 着 事件 的 发 生 ， 若 
干 与 该 事件 密切 相关 的 某 种 特征 ， 比 如 文档 或 者 词语 等 会 出 现 反 常 爆发 的 特性 。 突 发 事件 就 
是 指 共 有 突 发 特征 的 事件 。 目前 , 关于 突 发 事件 的 研究 主要 集中 于 从 数据 集中 寻找 所 有 与 该 
事件 关联 的 突 发 词 , 然后 再 将 这 些 突 发 词 进行 组 合 以 形成 该 突 发 事件 的 特征 ， 从 而 用 突 发 特 
征 描述 突 发 事件 。 这 类 研究 的 目标 与 传统 的 话题 检测 与 跟踪 中 的 事件 检测 有 所 不 同 。 突 发 事 
牛 的 研究 旨 在 通过 一 组 突 发 词 来 识别 出 一 个 突 发 事件 。 而 在 话题 检测 与 跟踪 中 , 事件 是 通过 
文档 集 来 表示 的 。 突 发 事件 的 研究 不 再 局 限于 新 闻 数 据 ， 也 包括 了 查询 日 志 、 邮 件 、 博 客 等 
语 料 。 同 样 ， 突 发 事件 的 检测 也 分 为 两 类 ， 即 历史 突 发 事件 的 检测 和 在 线 突 发 事件 的 检测 。 


在 2002 年 , 引文 [10] 提 出 了 一 个 简单 的 、 功能 强大 的 用 于 文本 流 突 发 检测 的 自动 机 模型 。 
该 自动 机 模型 通过 自动 机 来 模拟 特征 词 的 状态 及 状态 之 间 的 转换 ,不 同 的 状态 表示 了 词 的 不 
同 的 出 现 频 率 , 而 这 些 状态 间 的 转换 则 表示 了 突 发 的 产生 或 者 消亡 。 通过 给 予 状态 转换 以 一 
定 的 惩罚 ， 自 动机 模型 能 够 有 效 地 防止 错误 检测 出 过 多 的 非 突 发 性 词 频 变化 。 在 该 文章 中 ， 
作者 将 自动 机 模型 应 用 到 邮件 集 和 新 闻 集 中 ， 并 且 证 明了 自动 机 方法 进行 突 发 检测 的 有 效 


性 


引文 [11] 提 出 了 一 个 无 参数 的 突 发 事件 检测 方法 。 和 自动 机 模型 不 同 的 是 ， 该 方法 在 可 
以 有 效 地 在 文本 流 中 自动 检测 突 发 事件 的 同时 不 需要 用 户 指定 任何 参数 。 同样 , 该 方法 的 目 
标 也 是 寻找 突 发 词 集 ， 而 每 个 突 发 词 集 就 表示 了 一 个 突 发 事件 。 具体 来 讲 ， 二 项 式 分 布 被 用 
来 表示 一 个 词 在 文本 中 出 现 的 可 能 性 。 通过 该 分 布 , 一 个 可 能 性 非常 小 的 词 的 出 现 频 率 突然 
增长 就 被 认为 是 该 词 的 突 发 。 并 且 通 过 在 新 闻 数 据 上 的 实验 分 析 ， 证 明了 该 方法 的 有 效 性 。 


引文 [12] 提 出 了 一 种 通过 离散 传 立 叶 变换 将 时 序 信号 分 解 为 一 系列 正 余弦 信和 号， 分 析 殿 
中 能 量 值 ( 傅 立 叶 系数 ) 最 大 的 信号 的 行为 , 来 识别 非 周 期 性 突 发 词 和 周期 性 突 发 词 的 方法 。 
该 方法 还 能 够 分 别 识别 弱 突 发 性 词 和 强 突 发 性 词 。 该 方法 能 够 较 好 地 处 理 周期 性 突 发 事件 的 
识别 ， 同 时 还 能 够 较 好 地 识别 弱 突 发 性 事件 。 


引文 [13] 通 过 对 自动 机 模型 的 改 


造 ， 得 到 一 个 在 线 的 突 发 事件 检测 方 ”< 一、 、 l2 
T eet | 村 
©) 3 So: 8 y Š Z ij 
z 在 线 的 方式 检测 突 发 事件 。 由 于 采用 动 
态 规划 来 求解 当前 的 最 优 状态 , 在 内 存 
中 每 个 时 刻 只 需要 很 小 代价 来 保持 上 
一 个 时 间 点 的 每 种 状态 值 。 
引文 [4 将 突 发 事件 的 检测 思想 进一步 应 用 到 识别 博客 中 的 突 发 用 户 群 
综 上 所 述 , 突 发 事件 检测 的 研究 包含 两 个 基本 的 步 又, 即 突 发 词 的 识别 和 突 发 词 的 合并 。 
突 发 词 的 识别 站 在 检测 出 数据 集中 所 有 的 具有 突 发 特征 的 特征 词 . 突 发 词 的 合并 立足 于 用 这 
些 突 发 特征 词 构建 最 终 的 突 发 事件 特征 。 突 发 事件 检测 的 流程 如 图 1 所 示 。 
3.4 基于 社会 网 络 的 话题 检测 和 跟踪 
与 以 往 的 新 闻 网 络 媒介 不 同 ， 社 会 网 络 更 加 强调 用 户 的 参与 性 。 并且， 由 于 社会 网 络 给 
用 户 提供 了 一 个 方便 的 信息 交流 平台 ， 各 种 各 样 的 具体 形式 的 网 络 媒介 得 到 了 很 大 的 发 展 。 
比如 博客、 网 络 论坛 、 社 交 网 络 、 视 频 共享 网 站 以 及 最 近 兴 起 的 微 博 等 。 如 果 能 够 有 效 地 
在 社会 网 络 上 自动 检测 和 跟踪 话题 , 无 疑 能 够 方便 用 户 在 社会 网 络 上 寻找 并 全 面 了 解 其 所 感 
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1. 突 发 事件 检测 的 一 般 流程 
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话题 检测 与 跟踪 研究 进展 综述 


兴趣 的 事件 或 者 话题 。 


以 往 关 于 话题 的 研究 ， 特 别 是 话题 检测 与 跟踪 的 研究 集中 在 新 闻 数 据 上 。 而 新 闻 数 据 形 
式 严 说， 用 词 确切 ， 内 容 具 体 。 这 些 都 与 社会 网 络 上 的 数据 特征 有 很 大 差别 。 由 于 社会 网 络 
上 的 数据 主要 由 普通 用 户 产 生 ， 这 些 数据 无 论 是 用 词 、 形 式 还 是 具体 的 内 容 ， 质 量 都 没有 保 
证 ; 另外 ， 用 户 的 广泛 参与 也 为 话题 检测 和 跟踪 提供 了 可 利用 的 新 的 数据 信息 ， 也 就 是 说 ， 
社会 网 络 上 的 话题 检测 不 仅 局 限于 文本 信息 , 还 可 以 利用 非 文 本 信息 。 这 两 个 特点 使 我 们 有 
必要 寻找 新 的 更 加 适合 于 社会 网 络 的 话题 检测 和 跟踪 的 方法 。 


虽然 关于 社会 网 络 上 的 话题 检测 和 跟踪 的 研究 具有 很 大 的 价值 。 但是， 由 于 数据 质量 参 
差 不 齐 ,要 得 到 有 效 的 话题 检测 和 跟踪 算法 并 不 是 一 件 十 分 容易 的 事情 。 并且, 不同 的 社会 
网 络 形式 也 会 对 话题 检测 和 跟踪 方法 产生 较 大 的 影响 有 关 的 话题 检测 和 跟踪 研究 几乎 涉及 
到 各 种 形式 的 社会 网 络 数据 ， 包 括 查询 日 志 、 博 客 、 网 络 论坛 、 视 频 共享 平台 等 。 随 着 各 种 
新 型 的 应 用 社会 网 络 平台 的 出 现 ， 话 题 检测 和 跟踪 的 方法 也 需要 不 断 地 进行 改进 。 


ARSE (音译 ，MingLiang Zhu) 等 人 在 2008 年 提供 了 一 个 在 主题 讨论 社区 (Threaded 
Discussion Community) 中 检测 和 跟踪 话题 的 方法 59， 该 研究 集中 于 设计 有 效 方法 来 消除 
淤 在 的 噪声 的 影响 ， 并 且 通 过 引入 用 户 的 相似 性 来 改进 线索 〈thread) 相似 性 计算 的 效果 。 
刘 路 (音译 ， Liu，Lu) 等 人 对 视频 话题 检测 的 方法 进行 了 研究 上 ， 通 过 视频 和 标注 词 形 
成 二 部 图 ， 然 后 再 在 该 二 部 图 上 通过 联合 聚 类 〈Co-clustering ) 算法 9 进行 话题 检测 与 跟踪 。 
在 YouTube 上 的 实验 分 析 表 明 , 该 方法 能 够 较 好 地 在 视频 网 页 上 检测 和 跟踪 话题 。 在 2007 年 ， 
N. 班 塞 尔 (Nilesh Bansal) 等 人 通过 对 用 户 查 询 的 分 析 在 文本 数据 流 上 检测 事件 。 该 方法 的 
基本 思想 是 : 首先 ， 从 查询 日 志 中 找 出 具有 突 发 性 的 查询 词 。 然 后 ， 使 用 这 些 突 发 词 的 查询 
结果 构建 事件 。 引 文 [21] 通 过 对 用 户 查 询 的 分 析 在 用 户 产生 的 数据 (User Generated Content, 
UGC) 流 上 检测 事件 。 该 方法 的 基本 思想 是 : 首先 ， 从 查询 日 志 中 找 出 具有 突 发 性 的 查询 
词 。 然后 ,使 用 这 些 突 发 词 的 查询 结果 构建 事件 。 该 文章 使 用 查询 日 志和 博客 数据 进行 了 实 
验 并 且 取 得 了 较 好 的 事件 检测 效果 。 
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近来 ， 我 们 对 论坛 上 的 话题 检测 进行 了 较为 深入 的 研究 。 引 文 [19] 提 出 了 论坛 上 的 突 发 


”此 概念 尚 无 统一 译 法 ， 亦 有 译作 “ 按 线索 讨论 ” “基于 线索 的 讨论 ”“ 穿 插 讨论 ”等 。 
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话题 的 检测 方法 ,首先 利用 突 发 性 特征 来 过 滤 具 有 突 发 性 的 特征 词 和 用 户 , 再 通过 对 突 发 词 
的 组 合 来 构建 突 发 话题 。 同 时 ， 通 过 突 发 用 户 群 来 进一步 验证 所 检测 到 的 突 发 话题 。 另 外 ， 
我 们 注意 到 论坛 上 的 帖子 质量 很 难得 到 保障 : 一 方面 , 由 于 用 户 产 生 的 文本 内 容 本 身 质 量 参 
差 不 齐 ; 另 一 方面 ， 论 坛 上 存在 大 量 的 非 事件 文本 。 在 实际 的 话题 检测 过 程 中 ， 这 些 噪 音 都 
会 对 结果 产生 较 大 的 影响 。 为 了 过 滤 上 述 论坛 噪音 , 我 们 结合 了 文本 内 容 相似 性 和 事件 的 突 
发 性 来 进行 论坛 上 的 话题 检测 中 ， 并 在 此 基础 上 提出 了 一 种 基于 噪音 数据 的 突 发 事件 检测 
框架 ， 如 图 2 所 示 。 


我 们 对 收集 的 腾讯 论坛 数据 进行 人 工 标 注 ， 并 使 用 该 数据 集 对 我 们 的 方法 进行 了 评测 。 
通过 实验 发 现 , 我 们 所 提出 的 带 品 音 过 滤 的 突 发 事件 检测 方法 能 够 较 好 提升 已 有 方法 在 噪音 
数据 上 的 检测 效果 。 


3.5 话题 检测 和 跟踪 的 评价 指标 


对 于 话题 检测 和 跟踪 的 评价 , 一 般 采 用 多 种 评估 标准 。 这 些 标准 包括 : EMR Precision, 
p) BEX (Recall, r), FIR (FL). WIR (False Alarm Rate, False )、 漏 报 率 (Miss 
2 Rate, Miss )、 归 一 化 的 检测 代价 (Normal Cost Value, (Cae) norm > URIMI R PEE 
— 和 微 平均 值 等 9。 


= 根据 已 有 的 话题 检测 和 跟踪 的 评测 方法 , 话题 检测 算法 的 评价 方法 为 : 对 于 检测 算法 检 
por 测 出 的 任意 数目 的 结果 话题 , 对 该 检测 和 跟踪 算法 的 评测 只 集中 在 所 预先 人 为 选 定 并 且 标注 
O 的 若干 话题 上 。 对 于 标注 话题 的 评测 ， 我 们 在 检测 的 结果 话题 中 ， 技 出 与 标准 话题 具有 最 大 
N 公共 文档 集 的 结果 话题 ， 作 为 该 标注 话题 的 对 应 检测 结果 四。 所 谓 的 公共 文档 集 是 指 评测 话 
O 题 和 某 个 结果 话题 的 共享 文档 集 。 该 评价 方法 适合 于 历史 话题 检测 的 性 能 评测 。 同 时 我 们 也 
可 以 将 该 评测 使 用 在 在 线 的 话题 检测 的 性 能 评测 上 。 


二 各 种 评测 的 具体 指标 则 基于 关联 矩阵 〈Contingency Matrix) 来 获得 ， 关 联 窍 阵 中 各 项 
= 的 值 代表 了 满足 该 项 要 求 的 文档 的 数目 ， 如 下 表 所 示 。 
_ 表 1 话题 检测 结果 的 关联 矩阵 
在 标注 话题 中 不 在 标准 话题 中 
b 


=> 


不 在 检测 结果 话题 中 z b 


基于 该 关联 和 矩阵， 准确 率 、 召 回 率 、F 值 、 误 报 率 、 漏 报 率 的 定义 分 别 为 : 


p=a/(a+b) ((a+b)>0, Gi p HAL); 

r=a/(a+c) ((at+c)>0, Ar AREY); 

F, =2pr/(p+r)=2a/2a+b+c) (2a+b+c>0, AIF, REX); 
False =b/(b+d)((b+d)>0, ll False 为 未 定义 ); 
Miss=c/(a+c) ((a+c)>0, W Miss 为 未 定义 ); 


准确 率 是 指 在 在 检测 出 的 结果 事件 中 , 真正 属于 该 事件 的 文档 所 占 的 比例 。 召回 率 是 指 
检测 出 的 事件 的 文档 与 标准 事件 的 文档 的 比例 。 由 于 准确 率 和 召回 率 之 间 经 常 是 互 为 消长 的 
关系 , 为 了 获得 比较 高 的 准确 率 通 常 要 牺牲 召回 率 ， 同 样 为 了 获得 比较 高 的 召回 率 通 常 要 牺 
牲 准 确 率 。 只 用 一 种 评价 指标 可 能 会 导致 错误 的 评价 结论 ,一 种 较 好 的 方法 是 把 准确 率 和 召 
回 率 进行 统一 考虑 ， 第 用 的 方法 是 使 用 五 值 。 
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话题 检测 与 跟踪 研究 进展 综述 


误 报 率 是 指 在 检测 的 结果 事件 中 的 不 属于 标注 话题 的 文档 与 所 有 不 属于 标注 话题 的 文 
档 比 例 。 漏 报 率 是 指标 注 话 题 中 未 能 检测 出 的 文档 比例 。 与 正确 率 和 召回 率 的 关系 类 似 ， 误 
报 率 和 漏 报 率 也 是 互 为 消长 的 关系 。 所 以 ,需要 一 种 更 好 的 能 够 将 这 两 种 评价 指标 融合 的 指 
标 ， 即 检测 代价 。 


检测 代价 结合 了 误 报 率 和 漏 报 率 ， 其 定义 为 : 


Cie = Miss x P x P, T false x Pratse x (1— Ps a) (4) 


miss target 


其 中 ，P,ss 和 Pi P0220 URAL PEER, Poga 是 一 个 先 验 的 概率 。Cas 
越 小 就 表示 算法 的 检测 效果 越 好 。 然 而 ， 由 于 C， 的 定义 与 先 验 概 率 有 关 ， 为 了 更 好 地 表示 


检测 算法 的 性 能 ， 在 话题 检测 中 ， 更 常用 Cs。 RAAB (Cae) norm? SIE MAM: 


Cie 
min((P miss X Pe) (P aise x (1— Prga D) 


(C ier Drom = (5) 


可 见 ， (Caer )worm ANEDE. FIE, (Ciee) norm 越 小 表示 检测 算法 的 检测 效果 越 好 。 在 
我 们 的 实验 中 ， P, arge 被 设 定 为 0.02。 


由 于 话题 检测 的 评价 所 使 用 的 评测 事件 的 数目 一 般 大 于 1。 所 以 ,为 了 描述 检测 算法 对 
每 个 评测 事件 的 综合 检测 效果 , 我 们 还 需要 使 用 宏 平 均 和 微 平均 。 宏 平均 是 指 直接 在 各 个 评 
测 事件 的 评价 指标 上 进行 加 权 平 均 ， 而 微 平 均 是 指 首先 将 各 个 评测 事件 的 关联 窍 阵 相 加 ， 然 
后 在 总 的 关联 逢 了 泗 上 计算 总 的 评测 指标 中 。 


Fd 


4 总结 


昌 然 话题 检测 与 跟踪 研究 已 经 开展 很 多 年 , 但 是 由 于 互联 网 数据 来 源 的 多 样 性 与 特征 抽 
取 的 不 确定 性 带 来 的 困难 ， 目 前 话题 检测 的 研究 主要 集中 于 新 闻 类 数据 上 , 社会 网 络 上 话题 
检测 的 研究 相对 较 少 。 随 着 社会 网 络 的 兴起 ， 特 别 是 论坛 、 微 博 等 的 广泛 应 用 ， 面 向 突 发 事 
件 等 特定 需求 和 面向 社会 网 络 数据 的 新 兴 应 用 的 话题 检测 具有 越 来 越 重 要 的 意义 。 我 们 相 
信 , 随 着 面向 社会 网 络 数据 的 特征 选择 方法 以 及 用 户 行为 与 文本 内 容 关 联 挖掘 方法 的 综合 应 
用 ， 话 题 检测 与 跟踪 技术 的 研究 与 应 用 会 得 到 进一步 的 发 展 。 
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